This analysis revolves around the undergraduate thesis carried out by Franco Sebastián Benítez, under the supervision of Débora Burin and Lucas Cuenya, from the School of Psychology of the University of Buenos Aires.
As set in our preregistration, we are checking the following aspects:
1) Check for exclusion criteria in the demographic data, and in the completion rate.
2) Describe the sample’s demographic characteristics.
3) Analyse the total percentage of “yes” responses to belief in crisis. Analyse as a function of career stage and methodological approach.
4) Qualitative analysis of open field response to belief in crisis.
5) Percentage of agreement with each, and combined, statements about replication crisis, p-value, publication bias. Analyse as a function of career stage and methodological approach.
6) Percentage of agreement with each, and combined, statements about perceived barriers. Analyse as a function of career stage and methodological approach.
7) Percentage of agreement with each, and combined, statements about attitudes against adopting open science practices. Analyse as a function of career stage and methodological approach.
8) Qualitative analysis of open field response to attitudes about barriers against adopting open science practices.
Before starting, we modify the HTML in the Jupyter Notebook. This allows us to customize it.
from IPython.core.display import HTML
HTML("""
<style>
.output_png {
display: table-cell;
text-align: center;
vertical-align: middle;
}
</style>
""")
import pandas as pd # data wrangling
import matplotlib.pyplot as plt # plotting
import seaborn as sns # plotting 2.0
import re # format text
from wordcloud import WordCloud, STOPWORDS # text analysis
from unidecode import unidecode # remove accents
df = pd.read_csv("../data/Percepciones sobre ciencia y ciencia abierta.csv")
pd.set_option('max_columns', None) # display all columns
df.head()
| Timestamp | ¿Acepta participar? | Edad (años) | Nivel educativo alcanzado | Área/s de investigación | ¿Ha participado en un proyecto de investigación (v. g., UBACyT, CONICET) en los últimos 5 años? | ¿Ha publicado en una revista indexada con referato (v. g., Scopus, Scimago, Scielo) en los últimos 5 años? | Marque su posición actual en la Facultad de Psicología de la UBA | ¿Qué tipo de metodología suele predominar en sus estudios? | ¿Cree que hay una crisis en la ciencia? | Si su respuesta a la pregunta anterior ha sido “Sí”, señale por qué cree que hay una crisis en la ciencia | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Un resultado estadísticamente significativo es un resultado importante] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [El valor de p = .001 confirma que el tamaño del efecto ha sido grande] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [La realización de estudios de replicación es necesaria para el avance de la ciencia] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [El principal objetivo de las revistas científicas es publicar hallazgos novedosos] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados] | Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos] | [Replicar un estudio previo] | [Pre-registrar un estudio antes de iniciar la recolección de datos] | [Poner datos recolectados a disposición mediante plataformas o repositorios públicos.] | [Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos] | [Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos] | [Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio] | [Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público] | [Usar revisión por pares abierta] | [Publicar en revistas de acceso abierto] | [Adaptar un test psicométrico] | [Participar en proyectos abiertos y colaborativos a gran escala] | [Replicar un estudio previo].1 | [Pre-registrar un estudio antes de iniciar la recolección de datos].1 | [Poner datos recolectados a disposición mediante plataformas o repositorios públicos] | [Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos].1 | [Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos].1 | [Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio].1 | [Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza] | [Usar revisión por partes abierta] | [Publicar en revistas de acceso abierto].1 | [Adaptar un test psicométrico].1 | [Participar en proyectos abiertos y colaborativos a gran escala].1 | ¿Cuáles le parecen que son las mayores barreras para la aceptación y puesta en práctica de prácticas de ciencia abierta en su campo y/o lugar de trabajo? | Si aplica, por favor describa brevemente qué barreras ha experimentado para incorporar o mantener prácticas de ciencia abierta | Por último, si posee alguna idea o comentario respecto a esta encuesta o al tema que aborda, por favor escribalo brevemente a continuación | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 2021/04/16 11:57:53 AM GMT-3 | Sí | 37 | Licenciado | Psicoanálisis Filosofía | Sí | Sí | ATP | Cualitativa | No | NaN | Algo de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Algo de acuerdo | Algo de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | No sé | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | No sé | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, ni escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | No sé | No sé | No sé | No sé | No sé | No sé | No sé | Poco importante | Medianamente importante | No sé | No sé | 9. No percibo ninguna barrera | NaN | NaN |
| 1 | 2021/04/16 12:13:54 PM GMT-3 | Sí | 48 | Doctorado | Alcohol | Sí | Sí | Adjunto;Titular | MIxta | No | NaN | Muy de acuerdo | Muy de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | 1. Falta de incentivos;2. Falta de requerimien... | NaN | NaN |
| 2 | 2021/04/16 2:43:17 PM GMT-3 | Sí | 37 | Doctorado | Neurociencia cognitiva | Sí | Sí | Titular | MIxta | No | NaN | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Nada de acuerdo | Algo de acuerdo | Nada de acuerdo | Bastante de acuerdo | Muy de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Sí, lo he hecho | Nunca lo hice, ni escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Muy importante | No sé | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | 1. Falta de incentivos;6. Falta de financiamie... | Economia! Muchas veces hay qeu pagar para que ... | NaN |
| 3 | 2021/04/16 3:33:59 PM GMT-3 | Sí | 31 | Doctorado | Psicoterapia | Sí | Sí | Titular;Ademas cargo Investigacion/docente | Cuantitativa | Sí | Financiamiento | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Muy de acuerdo | Algo de acuerdo | Bastante de acuerdo | Muy de acuerdo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Lo intenté, pero no lo completé | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo estoy haciendo | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Medianamente importante | Poco importante | Muy importante | Muy importante | Muy importante | Muy importante | Poco importante | Muy importante | Medianamente importante | Muy importante | Medianamente importante | 1. Falta de incentivos;3. Falta de información... | NaN | NaN |
| 4 | 2021/04/16 3:35:35 PM GMT-3 | Sí | 38 | Doctorado | Psicología del desarrollo | Sí | Sí | ATP | Cuantitativa | No | NaN | Algo de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Muy de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | 2. Falta de requerimiento por parte de financi... | NaN | NaN |
df.shape
(95, 53)
As we see, the data contains 95 rows and 53 columns.
Now, let's rename the columns to make it easier to manipulate and plot.
column_names = {"Timestamp": "timestamp",
"¿Acepta participar?": "consent",
"Edad (años)": "age",
"Nivel educativo alcanzado": "education",
"Área/s de investigación": "area",
"¿Ha participado en un proyecto de investigación (v. g., UBACyT, CONICET) en los últimos 5 años?": "project",
"¿Ha publicado en una revista indexada con referato (v. g., Scopus, Scimago, Scielo) en los últimos 5 años?": "journal",
"Marque su posición actual en la Facultad de Psicología de la UBA": "position",
"¿Qué tipo de metodología suele predominar en sus estudios?": "methodology",
"¿Cree que hay una crisis en la ciencia?": "belief",
"Si su respuesta a la pregunta anterior ha sido “Sí”, señale por qué cree que hay una crisis en la ciencia": "belief_comments",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas]": "Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos]": "A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos]": "Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables]": "Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo]": "Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Un resultado estadísticamente significativo es un resultado importante]": "Un resultado estadísticamente significativo es un resultado importante",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica]": "El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [El valor de p = .001 confirma que el tamaño del efecto ha sido grande]": "El valor de p = .001 confirma que el tamaño del efecto ha sido grande",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática]": "Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [La realización de estudios de replicación es necesaria para el avance de la ciencia]": "La realización de estudios de replicación es necesaria para el avance de la ciencia",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios]": "Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original]": "Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original]": "No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [El principal objetivo de las revistas científicas es publicar hallazgos novedosos]": "El principal objetivo de las revistas científicas es publicar hallazgos novedosos",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones]": "La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados]": "Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados",
"Valore cada una de las siguientes cuestiones relacionadas con su opinión sobre la ciencia [Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos]": "Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos",
" [Replicar un estudio previo]": "Replicar un estudio previo (1)",
" [Pre-registrar un estudio antes de iniciar la recolección de datos]": "Pre-registrar un estudio antes de iniciar la recolección de datos (1)",
" [Poner datos recolectados a disposición mediante plataformas o repositorios públicos.]": "Poner datos recolectados a disposición mediante plataformas o repositorios públicos (1)",
" [Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos]": "Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (1)",
" [Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos]": "Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (1)",
" [Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio]": "Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (1)",
" [Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público]": "Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público (1)",
" [Usar revisión por pares abierta]": "Usar revisión por pares abierta (1)",
" [Publicar en revistas de acceso abierto]": "Publicar en revistas de acceso abierto (1)",
" [Adaptar un test psicométrico]": "Adaptar un test psicométrico (1)",
" [Participar en proyectos abiertos y colaborativos a gran escala]": "Participar en proyectos abiertos y colaborativos a gran escala (1)",
" [Replicar un estudio previo].1": "Replicar un estudio previo (2)",
" [Pre-registrar un estudio antes de iniciar la recolección de datos].1": "Pre-registrar un estudio antes de iniciar la recolección de datos (2)",
" [Poner datos recolectados a disposición mediante plataformas o repositorios públicos]": "Poner datos recolectados a disposición mediante plataformas o repositorios públicos (2)",
" [Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos].1": "Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (2)",
" [Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos].1": "Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (2)",
" [Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio].1": "Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (2)",
" [Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza]": "Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza (2)",
" [Usar revisión por partes abierta]": "Usar revisión por partes abierta (2)",
" [Publicar en revistas de acceso abierto].1": "Publicar en revistas de acceso abierto (2)",
" [Adaptar un test psicométrico].1": "Adaptar un test psicométrico (2)",
" [Participar en proyectos abiertos y colaborativos a gran escala].1": "Participar en proyectos abiertos y colaborativos a gran escala (2)",
"¿Cuáles le parecen que son las mayores barreras para la aceptación y puesta en práctica de prácticas de ciencia abierta en su campo y/o lugar de trabajo?": "barriers_1",
"Si aplica, por favor describa brevemente qué barreras ha experimentado para incorporar o mantener prácticas de ciencia abierta": "barriers_2",
"Por último, si posee alguna idea o comentario respecto a esta encuesta o al tema que aborda, por favor escribalo brevemente a continuación ": "comments"
}
df.rename(columns = column_names, inplace=True)
df.timestamp = pd.to_datetime(df.timestamp)
df.age = [re.sub(r"[a-zñ]+", "", i) for i in df["age"]] # remove " años" in values, to convert them in integers
df.age = pd.to_numeric(df.age, downcast="integer")
Let's check all the types.
df.dtypes
timestamp datetime64[ns, pytz.FixedOffset(180)] consent object age int8 education object area object project object journal object position object methodology object belief object belief_comments object Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas object A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos object Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos object Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables object Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo object Un resultado estadísticamente significativo es un resultado importante object El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica object El valor de p = .001 confirma que el tamaño del efecto ha sido grande object Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática object La realización de estudios de replicación es necesaria para el avance de la ciencia object Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios object Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original object No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original object El principal objetivo de las revistas científicas es publicar hallazgos novedosos object La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones object Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados object Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos object Replicar un estudio previo (1) object Pre-registrar un estudio antes de iniciar la recolección de datos (1) object Poner datos recolectados a disposición mediante plataformas o repositorios públicos (1) object Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (1) object Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (1) object Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (1) object Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público (1) object Usar revisión por pares abierta (1) object Publicar en revistas de acceso abierto (1) object Adaptar un test psicométrico (1) object Participar en proyectos abiertos y colaborativos a gran escala (1) object Replicar un estudio previo (2) object Pre-registrar un estudio antes de iniciar la recolección de datos (2) object Poner datos recolectados a disposición mediante plataformas o repositorios públicos (2) object Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (2) object Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (2) object Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (2) object Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza (2) object Usar revisión por partes abierta (2) object Publicar en revistas de acceso abierto (2) object Adaptar un test psicométrico (2) object Participar en proyectos abiertos y colaborativos a gran escala (2) object barriers_1 object barriers_2 object comments object dtype: object
Let's check all the renamings.
df.columns
Index(['timestamp', 'consent', 'age', 'education', 'area', 'project',
'journal', 'position', 'methodology', 'belief', 'belief_comments',
'Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas',
'A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos',
'Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos',
'Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables',
'Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo',
'Un resultado estadísticamente significativo es un resultado importante',
'El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica',
'El valor de p = .001 confirma que el tamaño del efecto ha sido grande',
'Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática',
'La realización de estudios de replicación es necesaria para el avance de la ciencia',
'Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios',
'Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original',
'No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original',
'El principal objetivo de las revistas científicas es publicar hallazgos novedosos',
'La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones',
'Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados',
'Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos',
'Replicar un estudio previo (1)',
'Pre-registrar un estudio antes de iniciar la recolección de datos (1)',
'Poner datos recolectados a disposición mediante plataformas o repositorios públicos (1)',
'Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (1)',
'Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (1)',
'Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (1)',
'Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público (1)',
'Usar revisión por pares abierta (1)',
'Publicar en revistas de acceso abierto (1)',
'Adaptar un test psicométrico (1)',
'Participar en proyectos abiertos y colaborativos a gran escala (1)',
'Replicar un estudio previo (2)',
'Pre-registrar un estudio antes de iniciar la recolección de datos (2)',
'Poner datos recolectados a disposición mediante plataformas o repositorios públicos (2)',
'Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (2)',
'Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (2)',
'Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (2)',
'Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza (2)',
'Usar revisión por partes abierta (2)',
'Publicar en revistas de acceso abierto (2)',
'Adaptar un test psicométrico (2)',
'Participar en proyectos abiertos y colaborativos a gran escala (2)',
'barriers_1', 'barriers_2', 'comments'],
dtype='object')
To be considered "researchers", our respondents should either have participated in a research project or have publicated in a scientific journal. In both cases, in a maximum range of five years.
exclusion_criteria = df[["project", "journal"]]
excluded = []
for (i, (a, b)) in enumerate(exclusion_criteria.itertuples(index=False), start=0):
if a == "No" and b == "No":
print(f"Participant n° {i} will be excluded")
excluded.append(i)
df = df.drop(excluded, axis=0)
Participant n° 20 will be excluded Participant n° 26 will be excluded Participant n° 64 will be excluded Participant n° 78 will be excluded Participant n° 80 will be excluded
df.shape
(90, 53)
As we can observe, now we have five participants (rows) less.
We see the data.
df["education"]
0 Licenciado
1 Doctorado
2 Doctorado
3 Doctorado
4 Doctorado
...
90 Licenciado
91 Especialización;Maestría
92 Estudiante de licenciatura
93 Doctorado
94 Doctorado
Name: education, Length: 90, dtype: object
And we plot them directly, creating a function that we are going to reuse later.
def horizontal_bar_plot(serie, title=None):
y = serie.value_counts(ascending=True)
fig, ax = plt.subplots(figsize=(20,15))
ax.tick_params(labelsize=20)
ax.barh(y.index, y, height=0.75)
ax.set_title(title, fontsize=20)
ax.set_xlabel("Researchers", fontsize=20)
ax.set_ylabel("Frecuency", fontsize=20)
_, xmax = plt.xlim()
plt.xlim(0, xmax)
for i, v in enumerate(y):
ax.text(v + .5, i, str(v), fontsize=20, ha='left', va='center')
plt.show()
horizontal_bar_plot(df["education"], "Education")
Let's go to clean the data a little. We will group each category into five large groups: "Doctorado", "Licenciatura", "Especialización", "Maestría", and "Posdoctorado", regardless of whether it is ongoing or completed.
First, let's go to separate our different categories by semicolon. For that, we create a new dataframe specific to our variable. The same contains more rows because of the previous rows were expanded by semicolon. The variable, in this case, will be called "education_df".
Note: We add the "belief" variable because we are going to use this variable later.
education_df = df[["education",
"belief",
'Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas',
'A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos',
'Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos',
'Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables',
'Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo',
'Un resultado estadísticamente significativo es un resultado importante',
'El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica',
'El valor de p = .001 confirma que el tamaño del efecto ha sido grande',
'Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática',
'La realización de estudios de replicación es necesaria para el avance de la ciencia',
'Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios',
'Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original',
'No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original',
'El principal objetivo de las revistas científicas es publicar hallazgos novedosos',
'La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones',
'Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados',
'Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos',
'Replicar un estudio previo (1)',
'Pre-registrar un estudio antes de iniciar la recolección de datos (1)',
'Poner datos recolectados a disposición mediante plataformas o repositorios públicos (1)',
'Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (1)',
'Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (1)',
'Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (1)',
'Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público (1)',
'Usar revisión por pares abierta (1)',
'Publicar en revistas de acceso abierto (1)',
'Adaptar un test psicométrico (1)',
'Participar en proyectos abiertos y colaborativos a gran escala (1)',
'Replicar un estudio previo (2)',
'Pre-registrar un estudio antes de iniciar la recolección de datos (2)',
'Poner datos recolectados a disposición mediante plataformas o repositorios públicos (2)',
'Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (2)',
'Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (2)',
'Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (2)',
'Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza (2)',
'Usar revisión por partes abierta (2)',
'Publicar en revistas de acceso abierto (2)',
'Adaptar un test psicométrico (2)',
'Participar en proyectos abiertos y colaborativos a gran escala (2)']
].assign(education=df["education"].str.split(";")).explode("education").reset_index(drop=True)
Then, we have the next new dataframe:
education_df
| education | belief | Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas | A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos | Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos | Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables | Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo | Un resultado estadísticamente significativo es un resultado importante | El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica | El valor de p = .001 confirma que el tamaño del efecto ha sido grande | Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática | La realización de estudios de replicación es necesaria para el avance de la ciencia | Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios | Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original | No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original | El principal objetivo de las revistas científicas es publicar hallazgos novedosos | La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones | Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados | Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos | Replicar un estudio previo (1) | Pre-registrar un estudio antes de iniciar la recolección de datos (1) | Poner datos recolectados a disposición mediante plataformas o repositorios públicos (1) | Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (1) | Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (1) | Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (1) | Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público (1) | Usar revisión por pares abierta (1) | Publicar en revistas de acceso abierto (1) | Adaptar un test psicométrico (1) | Participar en proyectos abiertos y colaborativos a gran escala (1) | Replicar un estudio previo (2) | Pre-registrar un estudio antes de iniciar la recolección de datos (2) | Poner datos recolectados a disposición mediante plataformas o repositorios públicos (2) | Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (2) | Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (2) | Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (2) | Compartir una pre-impresión (pre-print) publicándola en un repositorio de confianza (2) | Usar revisión por partes abierta (2) | Publicar en revistas de acceso abierto (2) | Adaptar un test psicométrico (2) | Participar en proyectos abiertos y colaborativos a gran escala (2) | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | Licenciado | No | Algo de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Algo de acuerdo | Algo de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | No sé | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | No sé | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, ni escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | No sé | No sé | No sé | No sé | No sé | No sé | No sé | Poco importante | Medianamente importante | No sé | No sé |
| 1 | Doctorado | No | Muy de acuerdo | Muy de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante |
| 2 | Doctorado | No | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Nada de acuerdo | Algo de acuerdo | Nada de acuerdo | Bastante de acuerdo | Muy de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Sí, lo he hecho | Nunca lo hice, ni escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Muy importante | No sé | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante |
| 3 | Doctorado | Sí | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Muy de acuerdo | Muy de acuerdo | Muy de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Muy de acuerdo | Algo de acuerdo | Bastante de acuerdo | Muy de acuerdo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Lo intenté, pero no lo completé | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo estoy haciendo | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Medianamente importante | Poco importante | Muy importante | Muy importante | Muy importante | Muy importante | Poco importante | Muy importante | Medianamente importante | Muy importante | Medianamente importante |
| 4 | Doctorado | No | Algo de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Muy de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante | Muy importante |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 95 | Especialización | Sí | Bastante de acuerdo | Bastante de acuerdo | Muy de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Muy de acuerdo | Muy de acuerdo | Algo de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Algo de acuerdo | Nada de acuerdo | Muy de acuerdo | Sí, lo he hecho | Sí, lo estoy haciendo | Nunca lo hice, pero sé cómo hacerlo | Sí, lo estoy haciendo | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo estoy haciendo | Muy importante | Medianamente importante | Medianamente importante | Muy importante | Muy importante | Muy importante | Muy importante | Poco importante | Muy importante | Muy importante | Muy importante |
| 96 | Maestría | Sí | Bastante de acuerdo | Bastante de acuerdo | Muy de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Muy de acuerdo | Muy de acuerdo | Algo de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Algo de acuerdo | Nada de acuerdo | Muy de acuerdo | Sí, lo he hecho | Sí, lo estoy haciendo | Nunca lo hice, pero sé cómo hacerlo | Sí, lo estoy haciendo | Sí, lo he hecho | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Sí, lo he hecho | Sí, lo he hecho | Sí, lo estoy haciendo | Muy importante | Medianamente importante | Medianamente importante | Muy importante | Muy importante | Muy importante | Muy importante | Poco importante | Muy importante | Muy importante | Muy importante |
| 97 | Estudiante de licenciatura | No | Muy de acuerdo | Muy de acuerdo | No sé | Algo de acuerdo | No sé | Algo de acuerdo | Nada de acuerdo | Algo de acuerdo | No sé | Nada de acuerdo | Bastante de acuerdo | No sé | No sé | Algo de acuerdo | Algo de acuerdo | Nada de acuerdo | Nada de acuerdo | Sí, lo he hecho | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero sé cómo hacerlo | Sí, lo he hecho | Nunca lo hice, pero escuché hablar de eso | Muy importante | Medianamente importante | Medianamente importante | Medianamente importante | Medianamente importante | Muy importante | Muy importante | Medianamente importante | Muy importante | Muy importante | Medianamente importante |
| 98 | Doctorado | Sí | No sé | Algo de acuerdo | Algo de acuerdo | Algo de acuerdo | Nada de acuerdo | Algo de acuerdo | No sé | No sé | Algo de acuerdo | Algo de acuerdo | Algo de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Nada de acuerdo | No sé | Algo de acuerdo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero sé cómo hacerlo | Lo intenté, pero no lo completé | Lo intenté, pero no lo completé | Nunca lo hice, pero sé cómo hacerlo | Sí, lo estoy haciendo | Nunca lo hice, ni escuché hablar de eso | Nunca lo hice, pero sé cómo hacerlo | Muy importante | Medianamente importante | Muy importante | Poco importante | Poco importante | Medianamente importante | Poco importante | Poco importante | Muy importante | Poco importante | Medianamente importante |
| 99 | Doctorado | Sí | Bastante de acuerdo | Bastante de acuerdo | Algo de acuerdo | Nada de acuerdo | Nada de acuerdo | Algo de acuerdo | Algo de acuerdo | No sé | Algo de acuerdo | Algo de acuerdo | Nada de acuerdo | Nada de acuerdo | Nada de acuerdo | Bastante de acuerdo | Bastante de acuerdo | Nada de acuerdo | Algo de acuerdo | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero sé cómo hacerlo | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Sí, lo estoy haciendo | Nunca lo hice, pero escuché hablar de eso | Sí, lo estoy haciendo | Sí, lo estoy haciendo | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Medianamente importante | Poco importante | Medianamente importante | Medianamente importante | Medianamente importante | Muy importante | Poco importante | Medianamente importante | Medianamente importante | No sé | Medianamente importante |
100 rows × 41 columns
Now, let's replace, creating a new function that we are using later.
def replace_columns(df, column_to_replace, original, replaced):
"""
Returns: a df and its columns with strings replaced.
"""
for col in [column_to_replace]:
df[col] = df[col].str.replace(original, replaced)
replace_columns(education_df, "education", "Licenciado", "Licenciatura")
replace_columns(education_df, "education", "Estudiante de licenciatura", "Licenciatura")
replace_columns(education_df, "education", "estudiante de doctorado", "Doctorado")
replace_columns(education_df, "education", "Doctorado en curso", "Doctorado")
replace_columns(education_df, "education", "Estudiante de Doctorado", "Doctorado")
replace_columns(education_df, "education", "En proceso de tesis de maestría", "Maestría")
And we plot, creating a function for later, this time vertically.
def vertical_bar_plot(df, serie, title=None):
plt.figure(figsize=(15,10))
ax = df.groupby(serie).size().sort_values(ascending=False).plot.bar()
ax.set_title(title)
ax.set_xlabel("Researchers")
ax.set_ylabel("Frecuency")
def add_value_labels(ax, spacing=5):
for rect in ax.patches:
y_value = rect.get_height()
x_value = rect.get_x() + rect.get_width() / 2
space = spacing
va = 'bottom'
if y_value < 0:
space *= -1
va = 'top'
label = y_value
ax.annotate(
label,
(x_value, y_value),
xytext=(0, space),
textcoords="offset points",
ha='center',
va=va)
add_value_labels(ax)
plt.xticks(rotation=0)
vertical_bar_plot(education_df, "education", "Education")
Thereby, we have that most respondents have or are getting a doctorate grade, followed by those that have or are getting a licentiate degree.
First, we create a function that allow us to: 1) remove accents and uppercases, 2) join text from all rows in serie, and 3) drop NA's in case of having.
def extract_text(serie):
serie.dropna(inplace=True)
serie = serie.apply(unidecode).str.casefold().reset_index(drop=True)
text = " ".join(text for text in serie)
return text
Now, we create a function to plot. (We are going to reuse this function later.)
def make_worldcloud(data, stopwords=None):
wordcloud=WordCloud(
background_color='white',
stopwords=stopwords,
max_words=800,
max_font_size=800,
width=800, height=800,
random_state=0
).generate(data)
plt.figure(figsize = (12,15), facecolor=None)
plt.imshow(wordcloud)
plt.axis("off")
plt.tight_layout(pad = 0)
return plt.show()
Finally, we extract text from a serie and plot it.
make_worldcloud(extract_text(df["area"]))
We run again adding a list of stopwords as argument.
make_worldcloud(extract_text(df["area"]), ["psicologia", "y", "la", "de"])
We can see that neuroscience, neuropsychology, social psychology ("social"), developmentental psychology ("del desarrollo"), clinical psychology ("clinica"), and health psychology ("salud"), seem to be the most frequent areas in our sample.
Let's reuse the function to create a horizontal bar plot.
horizontal_bar_plot(df["position"])
As it was done previously, we store the new values to a new dataframe. In this case, it will be called "position_df".
position_df = df[["position", "belief"]].assign(position=df["position"].str.split(";")).explode("position").reset_index(drop=True)
We plot the data.
horizontal_bar_plot(position_df["position"])
Better, but it still does not look very good.
We group the unique values in a category we will call "Other".
position_df.loc[position_df['position'].isin((position_df['position'].value_counts()[position_df['position'].value_counts() == 1]).index), 'position'] = 'Other'
We plot the data again.
horizontal_bar_plot(position_df["position"])
We can see that most respondents have the rol of "Ayudante de Trabajos Prácticos", by its acronym "ATP".
Now, let's see the type of methodology that predominates in our sample of researchers. Directly, we plot the methodology serie from our main dataframe.
df["methodology"].value_counts().plot.pie(figsize = (10,5), autopct='%1.0f%%', fontsize=20)
<AxesSubplot:ylabel='methodology'>
As it can be seen, most respondents consider themselves predominantly practising a quantitative approach, being approximately a quarter those that strictly practise a qualitative methodology.
As to respondents' age, first we extract statistics and, next, plot the data directly.
df["age"].describe()
count 90.000000 mean 37.344444 std 12.667007 min 20.000000 25% 28.000000 50% 35.000000 75% 42.750000 max 82.000000 Name: age, dtype: float64
sns.distplot(df['age'])
C:\Users\Usuario\anaconda3\lib\site-packages\seaborn\distributions.py:2619: FutureWarning: `distplot` is a deprecated function and will be removed in a future version. Please adapt your code to use either `displot` (a figure-level function with similar flexibility) or `histplot` (an axes-level function for histograms). warnings.warn(msg, FutureWarning)
<AxesSubplot:xlabel='age', ylabel='Density'>
As we observe, most respondents are located in the 20-40 age group.
Regarding the belief in crisis variable, we directly plot the data.
df["belief"].value_counts().plot.pie(title="Do you believe that there is a crisis in science?",
figsize = (10,5),
autopct = "%1.0f%%",
fontsize = 20)
<AxesSubplot:title={'center':'Do you believe that there is a crisis in science?'}, ylabel='belief'>
As we can see, the results are almost divided. Other surveys, such as the Baker (2016) survey, perceive higher results as to "yes" percentages.
Below we will be seeing how those respondents who said "yes" justify their answers.
Now, we group the belief in crisis by career stage (researchers' education). We plot the data directly, enlarging the plot size.
plt.figure(figsize=(15,10))
sns.countplot(x='education', hue='belief', data=education_df)
<AxesSubplot:xlabel='education', ylabel='count'>
We don't observe a big difference analyzing by career stage.
We can also analyze by position in college.
plt.figure(figsize=(15,10))
sns.countplot(x='position', hue='belief', data=position_df)
<AxesSubplot:xlabel='position', ylabel='count'>
In this case, ATP's seem to believe a little more in crisis in science.
sns.countplot(x="methodology", hue="belief", data=df)
<AxesSubplot:xlabel='methodology', ylabel='count'>
Let's take a closer look.
x, y = 'methodology', "belief"
df1 = df.groupby(x)[y].value_counts(normalize=True)
df1 = df1.mul(100)
df1 = df1.rename('percent').reset_index()
g = sns.catplot(x=x,
y='percent',
hue=y,
kind='bar',
data=df1,
height=5,
hue_order=["No", "Sí"],
aspect=2)
for ax in g.axes.ravel():
for p in ax.patches:
ax.annotate(format(p.get_height(), '.2f'), (p.get_x() + p.get_width() / 2.,
p.get_height()), ha = 'center', va = 'center', xytext = (0, 10),
textcoords = 'offset points')
Considering methodology, we can see that there are not substantial differences between usage of mixted and quantitative methodology as to belief in a crisis in science. However, there is a small difference between those that use predominatly qualitative methodology. That is, qualitative researchers seem to believe more in a crisis in science.
Likewise, it is worth noting that the results between those using predominantly quantitative methodology are divided, given that the called "replicability crisis" has a lot to do with statistical problems, such as huge confidence in p-value and null hypothesis testing, and statistical fallacies.
sns.boxplot(data=df, x='belief', y='age')
<AxesSubplot:xlabel='belief', ylabel='age'>
In regard to respondents' age, there is not a clear correlation with the belief in crisis in science variable.
Now, let's go to reuse the make_worldcloud() and extract_text() functions, built previously, to analyse justifications to "yes" answers to belief in crisis.
make_worldcloud(extract_text(df["belief_comments"]))
It doesn't look very good.
We add stopwords.
make_worldcloud(extract_text(df["belief_comments"]), ["que", "la", "y", "por", "porque", "en", "el", "para", "de", "se", "lo"
, "a", "como", "tambien", "los", "las", "del", "hay", "una", "pero",
"esta", "ciencia", "investigadores", "investigacion", "no", "su", "un",
"con", "al", "e", "mucha", "crisis", "o", "es", "cientifico"])
As now we can see, having filtered vague words, there are some words more frequent among those that answered "yes" to the question "Do you believe there are a crisis in science?". Such words more frequent are replicability ("replicabilidad"), system ("sistema"), absence ("falta"), and quality ("calidad").
Now let's see how many comments mentioned the "replicability" word as a cause of the crisis. First we create a new dataframe removing accents and uppercase of the comments.
belief_comments_df = df["belief_comments"].dropna().apply(unidecode).str.casefold().to_frame().reset_index(drop=True)
We add the comments mentioning "replica" to a list. We use "replica" to catch both "replicacion" and "replicabilidad".
l = [text for text in belief_comments_df["belief_comments"] if "replica" in text]
We print the data formatted.
for (i, text) in enumerate(l):
print('Comment %d:\n'%(i+1), text)
Comment 1: por la falta de replicabilidad de los estudios. Comment 2: hablando especificamente del campo de investigacion en psicologia social y politica existe una crisis que se debe a las bajas publicaciones de estudios de replicabilidad y los resultados desalentadores en los pocos estudios que existen. a un nivel mas transversal la academia, debido a motivos politicos y economicos, posee diversos problemas que dificultan la creacion de una ciencia transparente, robusta, significativa y de una calidad superior (e.g preferencia de mayor volumen sacrificando calidad debido a politicas apoyando el publish or perish). Comment 3: crisis en relacion a elementos criticables dentro de los sistemas de publicacion, ademas de aspectos metodologicos (como crisis de replicabilidad) Comment 4: problemas en la operacionalizacion de variables y la validez ecologica que no permite buenos resultados en la replicabilidad Comment 5: replicabilidad - teorias - metodos de analisis Comment 6: particularmente en psicologia hay una clara crisis de replicabilidad. en cuanto a la ciencia en general hay problemas en la falta de acceso universal a trabajos cientificos, que tiene que ser suplido por herramientas como scihub (entre otros problemas). Comment 7: crisis en cuano a replicabilidad (pocos experimentos replicados, incluso aquellos cuyos resultados son altamente importantes para el campo).
As we can see, only seven comments mention "replicabilidad" or "replicación" as causes of crisis in science.
In this point, let's go to create tidy tables that allow us to plot easily. These data, given that are provided for a likert scale, will be plotted with the HH package in R. The plotting code will be available in the R Script.
First, let's create a function that builds a table from a column provided.
def make_table(column):
"""
Returns: a table.
"""
df = column.value_counts().to_frame().reset_index()
df = df.T
df.columns = df.iloc[0]
df = df.drop(df.index[0])
return df
Second, we apply the previous function to create tables iteratively from an index to other.
def tables_by_columns(index_col_1, index_col_2):
"""
Returns: a list containing different tables created from indexes.
"""
l = []
for (i, column) in enumerate(df):
if (i >= index_col_1 and i <= index_col_2):
l.append(make_table(df[column]))
return l
Third, we combinate the tables creating only one.
def combinate_tables(l):
"""
Returns: a new dataframe.
"""
df = pd.concat(l)
df.reset_index(level=0, inplace=True)
df = df.rename(columns={'index': 'Measures'})
return df
Finally, we convert numerical values to int, given that by default they are strings.
def convert_to_int(df):
"""
Returns: a df with numerical values converted to int.
"""
for (i, column) in enumerate(df):
if (i > 0):
df[[column]] = df[[column]].astype('Int64').fillna(0)
return df
We are creating three variables relative to:
1) Answers to "Value each one of the following issues concerning your opinion about science". This variable will be called "science".
2) Answers to "Mark the option that best represents your knowledge and experience with each practise in the last five years". This variable will be named "experience".
3) Answers to "Choose the option that best represents how much importance you consider that has each one of the following practises to improve quality and efficiency of research in your research area". This variable will be named "efficiency".
science = convert_to_int(combinate_tables(tables_by_columns(11, 27)))
experience = convert_to_int(combinate_tables(tables_by_columns(28, 38)))
efficiency = convert_to_int(combinate_tables(tables_by_columns(39, 49)))
Let's see the results.
science
| index | Measures | Bastante de acuerdo | Algo de acuerdo | Muy de acuerdo | Nada de acuerdo | No sé |
|---|---|---|---|---|---|---|
| 0 | Gran parte de los investigadores solamente pub... | 32 | 26 | 24 | 4 | 4 |
| 1 | A las revistas científicas no les interesa pub... | 36 | 16 | 26 | 9 | 3 |
| 2 | Cuando leo un artículo tengo mayor confianza e... | 18 | 17 | 10 | 39 | 6 |
| 3 | Que un resultado no fuera estadísticamente sig... | 1 | 19 | 2 | 63 | 5 |
| 4 | Una conclusión científica (por ejemplo, si un ... | 20 | 30 | 9 | 26 | 5 |
| 5 | Un resultado estadísticamente significativo es... | 28 | 34 | 8 | 15 | 5 |
| 6 | El valor de p < .05 confirma que el hallazgo s... | 10 | 34 | 4 | 30 | 12 |
| 7 | El valor de p = .001 confirma que el tamaño de... | 11 | 19 | 7 | 31 | 22 |
| 8 | Cuando los resultados de diferentes investigad... | 30 | 21 | 34 | 4 | 1 |
| 9 | La realización de estudios de replicación es n... | 17 | 23 | 47 | 3 | 0 |
| 10 | Si los resultados sobre una determinada temáti... | 10 | 35 | 2 | 39 | 4 |
| 11 | Los estudios de replicación solamente tienen s... | 2 | 16 | 0 | 57 | 15 |
| 12 | No es necesario replicar un estudio cuando ya ... | 2 | 10 | 0 | 64 | 14 |
| 13 | El principal objetivo de las revistas científi... | 27 | 26 | 15 | 21 | 1 |
| 14 | La ciencia avanza más con estudios que plantea... | 11 | 29 | 7 | 40 | 3 |
| 15 | Creo que, en general, los errores que se puede... | 8 | 29 | 1 | 46 | 6 |
| 16 | Las tareas de revisión y corrección de los man... | 16 | 40 | 4 | 26 | 4 |
We sort labels.
science = science[["Measures", "Nada de acuerdo", "Algo de acuerdo", "No sé", "Bastante de acuerdo", "Muy de acuerdo"]]
experience = experience[["Measures",
"Nunca lo hice, ni escuché hablar de eso",
"Nunca lo hice, pero escuché hablar de eso",
"Nunca lo hice, pero sé cómo hacerlo",
"Lo intenté, pero no lo completé",
"Sí, lo estoy haciendo",
"Sí, lo he hecho"]]
efficiency = efficiency[["Measures",
"Nada importante",
"Poco importante",
"No sé",
"Medianamente importante",
"Muy importante"]]
science
| index | Measures | Nada de acuerdo | Algo de acuerdo | No sé | Bastante de acuerdo | Muy de acuerdo |
|---|---|---|---|---|---|---|
| 0 | Gran parte de los investigadores solamente pub... | 4 | 26 | 4 | 32 | 24 |
| 1 | A las revistas científicas no les interesa pub... | 9 | 16 | 3 | 36 | 26 |
| 2 | Cuando leo un artículo tengo mayor confianza e... | 39 | 17 | 6 | 18 | 10 |
| 3 | Que un resultado no fuera estadísticamente sig... | 63 | 19 | 5 | 1 | 2 |
| 4 | Una conclusión científica (por ejemplo, si un ... | 26 | 30 | 5 | 20 | 9 |
| 5 | Un resultado estadísticamente significativo es... | 15 | 34 | 5 | 28 | 8 |
| 6 | El valor de p < .05 confirma que el hallazgo s... | 30 | 34 | 12 | 10 | 4 |
| 7 | El valor de p = .001 confirma que el tamaño de... | 31 | 19 | 22 | 11 | 7 |
| 8 | Cuando los resultados de diferentes investigad... | 4 | 21 | 1 | 30 | 34 |
| 9 | La realización de estudios de replicación es n... | 3 | 23 | 0 | 17 | 47 |
| 10 | Si los resultados sobre una determinada temáti... | 39 | 35 | 4 | 10 | 2 |
| 11 | Los estudios de replicación solamente tienen s... | 57 | 16 | 15 | 2 | 0 |
| 12 | No es necesario replicar un estudio cuando ya ... | 64 | 10 | 14 | 2 | 0 |
| 13 | El principal objetivo de las revistas científi... | 21 | 26 | 1 | 27 | 15 |
| 14 | La ciencia avanza más con estudios que plantea... | 40 | 29 | 3 | 11 | 7 |
| 15 | Creo que, en general, los errores que se puede... | 46 | 29 | 6 | 8 | 1 |
| 16 | Las tareas de revisión y corrección de los man... | 26 | 40 | 4 | 16 | 4 |
experience
| index | Measures | Nunca lo hice, ni escuché hablar de eso | Nunca lo hice, pero escuché hablar de eso | Nunca lo hice, pero sé cómo hacerlo | Lo intenté, pero no lo completé | Sí, lo estoy haciendo | Sí, lo he hecho |
|---|---|---|---|---|---|---|---|
| 0 | Replicar un estudio previo (1) | 2 | 21 | 29 | 2 | 11 | 25 |
| 1 | Pre-registrar un estudio antes de iniciar la r... | 28 | 32 | 13 | 2 | 8 | 7 |
| 2 | Poner datos recolectados a disposición mediant... | 7 | 32 | 26 | 0 | 10 | 15 |
| 3 | Compartir los métodos analíticos (e.g., script... | 8 | 37 | 21 | 3 | 9 | 12 |
| 4 | Poner los materiales (e.g., cuestionarios, pro... | 1 | 31 | 22 | 6 | 12 | 18 |
| 5 | Reportar toda la información necesaria detalla... | 0 | 15 | 11 | 4 | 20 | 40 |
| 6 | Compartir una pre-impresión (pre-print) public... | 6 | 32 | 24 | 2 | 8 | 18 |
| 7 | Usar revisión por pares abierta (1) | 18 | 24 | 14 | 4 | 8 | 22 |
| 8 | Publicar en revistas de acceso abierto (1) | 0 | 7 | 12 | 3 | 17 | 51 |
| 9 | Adaptar un test psicométrico (1) | 7 | 32 | 17 | 2 | 10 | 22 |
| 10 | Participar en proyectos abiertos y colaborativ... | 5 | 31 | 19 | 5 | 12 | 18 |
efficiency
| index | Measures | Nada importante | Poco importante | No sé | Medianamente importante | Muy importante |
|---|---|---|---|---|---|---|
| 0 | Replicar un estudio previo (2) | 0 | 2 | 4 | 46 | 38 |
| 1 | Pre-registrar un estudio antes de iniciar la r... | 5 | 9 | 21 | 35 | 20 |
| 2 | Poner datos recolectados a disposición mediant... | 0 | 3 | 6 | 31 | 50 |
| 3 | Compartir los métodos analíticos (e.g., script... | 1 | 6 | 7 | 24 | 52 |
| 4 | Poner los materiales (e.g., cuestionarios, pro... | 1 | 5 | 4 | 20 | 60 |
| 5 | Reportar toda la información necesaria detalla... | 0 | 3 | 4 | 13 | 70 |
| 6 | Compartir una pre-impresión (pre-print) public... | 6 | 17 | 10 | 26 | 31 |
| 7 | Usar revisión por partes abierta (2) | 1 | 11 | 16 | 27 | 35 |
| 8 | Publicar en revistas de acceso abierto (2) | 1 | 4 | 4 | 16 | 65 |
| 9 | Adaptar un test psicométrico (2) | 3 | 11 | 7 | 20 | 49 |
| 10 | Participar en proyectos abiertos y colaborativ... | 0 | 3 | 8 | 26 | 53 |
We export (to be plotted from R and the HH package).
science.to_csv(r'../data/cleaned/science.csv', index=False)
experience.to_csv(r'../data/cleaned/experience.csv', index=False)
efficiency.to_csv(r'../data/cleaned/efficiency.csv', index=False)
And we import the resulting plots.
(1) Science:
#
(2) Experience:
#
(3) Efficiency:
#
The plots in the best quality can be found in https://github.com/francosbenitez/thesis/tree/master/images.
Now, we create and export tables grouped by career stage and methodological approach.
First, we create a function that receives a column and a group and transform them in a dataframe table.
# def make_table_by_group(column, group):
# """
# Returns: a table by group in dataframe format.
# """
# new_df = df.groupby(column)[group].value_counts().unstack().fillna(0).reset_index()
# new_df = new_df.T
# new_df.columns = new_df.iloc[0]
# new_df = new_df.drop(new_df.index[0])
# new_df.columns.name = None
# new_df = new_df.reset_index()
# return new_df
Then, we create iteratively tables by index, but, unlike before, this time will be by group.
# def tables_by_columns_and_group(index_col_1, index_col_2, group):
# """
# Returns: a dictionary with a variable name as key and a table as value.
# """
# d = {}
# column_names = {}
# for (i, column) in enumerate(df):
# if (i >= index_col_1 and i <= index_col_2):
# column_names[column] = make_table_by_group(df[column], group)
# d.update(column_names)
# return d
We create a function to export iteratively.
# def export_table(table, name):
# """
# Returns: different tables in csv format.
# """
# for (i, (k, v)) in enumerate(table.items()):
# v.to_csv("../data/cleaned/"+name+"_"+str(i)+".csv")
We export.
# export_table(tables_by_columns_and_group(11, 27, "education"), "science_by_education")
# export_table(tables_by_columns_and_group(28, 38, "education"), "experience_by_education")
# export_table(tables_by_columns_and_group(39, 49, "education"), "efficiency_by_education")
# export_table(tables_by_columns_and_group(11, 27, "methodology"), "science_by_methodology")
# export_table(tables_by_columns_and_group(28, 38, "methodology"), "experience_by_methodology")
# export_table(tables_by_columns_and_group(39, 49, "methodology"), "efficiency_by_methodology")
def science_by_methodology(serie):
x,y = 'methodology', serie
df1 = df.groupby(x)[y].value_counts(normalize=True)
df1 = df1.mul(100)
df1 = df1.rename('percent').reset_index()
g = sns.catplot(x=x,
y='percent',
hue=y,
kind='bar',
data=df1,
height=5,
aspect=2,
hue_order = ["Nada de acuerdo", "Algo de acuerdo", "No sé", "Bastante de acuerdo", "Muy de acuerdo"])
g.ax.set_ylim(0,100)
for ax in g.axes.ravel():
for p in ax.patches:
ax.annotate(format(p.get_height(), '.2f'), (p.get_x() + p.get_width() / 2.,
p.get_height()), ha = 'center', va = 'center', xytext = (0, 10),
textcoords = 'offset points')
g._legend.remove()
plt.legend(loc='upper right')
plt.title(serie + "\n" + "\n")
science_by_methodology("Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática")
science_by_methodology("Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática")
science_by_methodology("La realización de estudios de replicación es necesaria para el avance de la ciencia")
science_by_methodology("A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos")
science_by_methodology("Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas")
science_by_methodology("El principal objetivo de las revistas científicas es publicar hallazgos novedosos")
science_by_methodology("Un resultado estadísticamente significativo es un resultado importante")
science_by_methodology("Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo")
science_by_methodology("Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos")
science_by_methodology("El valor de p = .001 confirma que el tamaño del efecto ha sido grande")
science_by_methodology("Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos")
science_by_methodology("El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica")
science_by_methodology("La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones")
science_by_methodology("Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios")
science_by_methodology("Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados")
science_by_methodology("Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original")
science_by_methodology("No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original")
science_by_methodology("Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables")
###
for (i, participant) in enumerate(education_df["education"]):
if participant == "Postdoctorado":
education_df = education_df.drop([i], axis=0)
def science_by_education(serie):
x,y = 'education', serie
df1 = education_df.groupby(x)[y].value_counts(normalize=True)
df1 = df1.mul(100)
df1 = df1.rename('percent').reset_index()
g = sns.catplot(x=x,
y='percent',
hue=y,
kind='bar',
data=df1,
#orient="h",
height=5,
aspect=2,
hue_order = ["Nada de acuerdo", "Algo de acuerdo", "No sé", "Bastante de acuerdo", "Muy de acuerdo"])
g.ax.set_ylim(0,100)
for ax in g.axes.ravel():
for p in ax.patches:
ax.annotate(format(p.get_height(), '.2f'), (p.get_x() + p.get_width() / 2.,
p.get_height()), ha = 'center', va = 'center', xytext = (0, 10),
textcoords = 'offset points')
g._legend.remove()
plt.legend(loc='upper right')
plt.title(serie + "\n" + "\n")
science_by_education("Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática")
science_by_education("Cuando los resultados de diferentes investigadores son contradictorios entonces sería necesario llevar a cabo un estudio de replicación sobre la misma temática")
science_by_education("La realización de estudios de replicación es necesaria para el avance de la ciencia")
science_by_education("A las revistas científicas no les interesa publicar resultados que no son estadísticamente significativos")
science_by_education("Gran parte de los investigadores solamente publica los estudios en donde obtienen diferencias estadísticamente significativas")
science_by_education("El principal objetivo de las revistas científicas es publicar hallazgos novedosos")
science_by_education("Un resultado estadísticamente significativo es un resultado importante")
science_by_education("Una conclusión científica (por ejemplo, si un tratamiento es mejor que otro) debe estar basado en si el p-valor es o no es estadísticamente significativo")
science_by_education("Cuando leo un artículo tengo mayor confianza en la calidad del estudio si los resultados son estadísticamente significativos")
science_by_education("El valor de p = .001 confirma que el tamaño del efecto ha sido grande")
science_by_education("Las tareas de revisión y corrección de los manuscritos que llevan a cabo los revisores de las revistas garantizan de forma fiable la calidad de los resultados científicos")
science_by_education("El valor de p < .05 confirma que el hallazgo será útil para la comunidad científica")
science_by_education("La ciencia avanza más con estudios que plantean hipótesis novedosas que con estudios de replicación de otras investigaciones")
science_by_education("Si los resultados sobre una determinada temática son unánimes por parte de diferentes equipos de investigación entonces los estudios de replicación no son necesarios")
science_by_education("Creo que, en general, los errores que se pueden haber cometido en un estudio científico siempre se detectan y corrigen antes de ser publicados")
science_by_education("Los estudios de replicación solamente tienen sentido cuando no se detectan diferencias estadísticamente significativas en el estudio original")
science_by_education("No es necesario replicar un estudio cuando ya se detectaron efectos estadísticamente significativos en el estudio original")
science_by_education("Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables")
def experience_by_methodology(serie):
x,y = 'methodology', serie
df1 = df.groupby(x)[y].value_counts(normalize=True)
df1 = df1.mul(100)
df1 = df1.rename('percent').reset_index()
g = sns.catplot(x=x,
y='percent',
hue=y,
kind='bar',
data=df1,
height=5,
aspect=2,
hue_order = ["Nunca lo hice, ni escuché hablar de eso",
"Nunca lo hice, pero escuché hablar de eso",
"Nunca lo hice, pero sé cómo hacerlo",
"Lo intenté, pero no lo completé",
"Sí, lo estoy haciendo",
"Sí, lo he hecho"])
g.ax.set_ylim(0,100)
for ax in g.axes.ravel():
for p in ax.patches:
ax.annotate(format(p.get_height(), '.2f'), (p.get_x() + p.get_width() / 2.,
p.get_height()), ha = 'center', va = 'center', xytext = (0, 10),
textcoords = 'offset points')
g._legend.remove()
plt.legend(loc='upper right')
plt.title(serie + "\n" + "\n")
experience_by_methodology('Replicar un estudio previo (1)')
experience_by_methodology('Pre-registrar un estudio antes de iniciar la recolección de datos (1)')
experience_by_methodology('Poner datos recolectados a disposición mediante plataformas o repositorios públicos (1)')
experience_by_methodology('Compartir los métodos analíticos (e.g., scripts de análisis) en plataformas o repositorios públicos (1)')
experience_by_methodology('Poner los materiales (e.g., cuestionarios, procedimientos) a disposición mediante plataformas o repositorios públicos (1)')
experience_by_methodology('Reportar toda la información necesaria detalladamente para que otras personas puedan replicar mi estudio (1)')
experience_by_methodology('Compartir una pre-impresión (pre-print) publicándola en un repositorio público o semi-público (1)')
experience_by_methodology('Usar revisión por pares abierta (1)')
experience_by_methodology('Publicar en revistas de acceso abierto (1)')
experience_by_methodology('Adaptar un test psicométrico (1)')
experience_by_methodology('Participar en proyectos abiertos y colaborativos a gran escala (1)')
###
barriers_1_by_methodology = df[["barriers_1", "methodology"]].assign(barriers_1=df[["barriers_1"]].barriers_1.str.split(";")).explode("barriers_1").reset_index(drop=True)
replace_columns(barriers_1_by_methodology, "barriers_1", "[0-9.]", "")
C:\Users\Usuario\AppData\Local\Temp/ipykernel_9160/4084187051.py:6: FutureWarning: The default value of regex will change from True to False in a future version. df[col] = df[col].str.replace(original, replaced)
sns.catplot(y='barriers_1',
col='methodology',
data=barriers_1_by_methodology,
kind="count",
order=barriers_1_by_methodology["barriers_1"].value_counts().index)
<seaborn.axisgrid.FacetGrid at 0x1812b646dc0>
As we have already done previously, we create a new dataframe with rows extended by semi-colons.
barriers_1_df = df[["barriers_1"]].assign(barriers_1=df[["barriers_1"]].barriers_1.str.split(";")).explode("barriers_1").reset_index(drop=True)
We replace the numbers at the beginning of each row. (We reuse the replace_columns() function defined previously.)
replace_columns(barriers_1_df, "barriers_1", "[0-9.]", "")
C:\Users\Usuario\AppData\Local\Temp/ipykernel_9160/4084187051.py:6: FutureWarning: The default value of regex will change from True to False in a future version. df[col] = df[col].str.replace(original, replaced)
We plot.
horizontal_bar_plot(barriers_1_df["barriers_1"], "Major barriers against adopting open science practices")
Now we plot it adding percents.
def horizontal_bar_plot_with_percents(serie, title=None):
y = serie.value_counts(ascending=True)
fig, ax = plt.subplots(figsize=(20,15))
ax.tick_params(labelsize=20)
ax.barh(y.index, y, height=0.75)
ax.set_title(title, fontsize=20)
ax.set_xlabel("Researchers", fontsize=20)
ax.set_ylabel("Frecuency", fontsize=20)
_, xmax = plt.xlim()
plt.xlim(0, xmax)
for i, v in enumerate(y):
ax.text(v + .5, i, str('{}%'.format(round(v * 100 / 90), 2)), fontsize=20, ha='left', va='center')
plt.show()
horizontal_bar_plot_with_percents(barriers_1_df["barriers_1"], "Major barriers against adopting open science practices")
make_worldcloud(extract_text(df["barriers_2"]), ["de", "en", "la", "que", "y", "lo", "las", "para", "el", "no",
"por", "a", "e", "los", "mi", "es", "se", "con", "cual", "veces", "muchas",
"mayor", "un"])
barriers_2_df =df["barriers_2"].dropna().apply(unidecode).str.casefold().to_frame().reset_index(drop=True)
l = [text for text in barriers_2_df["barriers_2"]]
for (i, text) in enumerate(l):
print('Comment %d:\n'%(i+1), text)
Comment 1: economia! muchas veces hay qeu pagar para que los demas tengan acceso Comment 2: la mayor dificultad fue con las plataformas para depositar el material. la universidad donde trabajo por ejemplo no tiene repositorio institucional, asi que tuvimos que crear nuestra propia pagina (lo cual es un gasto extra). Comment 3: falta de entrenamiento y de tiempo para poder llevar a cabo el pre-registro Comment 4: en mi equipo estamos constantemente aprendiendo temas nuevos y no tenemos tiempo de abocarnos a eso en este momento. Comment 5: los recursos, y la falta de colaboracion institucional para poder desarrollar un proyecto. Comment 6: para publicar en revistas de alto impacto piden dinero Comment 7: muchas veces la falta de regulacion conlleva a fomentar creencias negativas sobre la ciencia abierta, lo cual impide el trabajo colaborativo. Comment 8: en la facultad el psa y su hegemonia, fuera de la facu ninguna por ahora Comment 9: la mayor barrera directa que vivencio es que mi supervisor/director no conoce nada de esta movida y cree que no es importante. entonces me tengo que formar sola. Comment 10: falta de interes de los organismos financiadores o que aportan subsidios Comment 11: no las he puesto en practica, salvo la divulgacion de mi produccion en plataformas libres. Comment 12: falta de financiamiento e interes de las autoridades de la universidad. Comment 13: falta de informacion y entrenamiento. Comment 14: principalmente, de financiamiento y tiempo. Comment 15: falta de conocimiento en primer momento. luego falta de tiempo o que no era requisito. Comment 16: no se promueve la investigacion, menos las practicas abiertas Comment 17: no experimente ninguna en particular, pero creo que tambien son practicas que se aprenden individual y grupalmente Comment 18: recursos de acceso a bases de datos, bibliografia, software necesarios para implementacion de investigacion cuantitativa. no se facilitan los recursos para investigar desde las principales instituciones de investigacion del pais (uba, conicet). Comment 19: las revistas de mayor impacto en mi campo no siempre son de acceso abierto Comment 20: rechazo por partes de revistas Comment 21: las revistas pretenden en general resultados novedosos y significativos. las pocas veces q me han pedido replicar ha sido para aumentar los n estadisticos. cuesta mucho publicar una hipotesis que se rechaza, aunque el resultado sea claro y de interes. ademas, el sistema cientifico argentino se rige por cantidad de publicaciones mas que por calidad, con lo cual termina siendo contraproducente invertir tiempo en mejorar la calidad. algo que a mi juicio deberia cambiar. Comment 22: falta de requirimiento, tiempo y apoyo Comment 23: ninguna Comment 24: una de las principales barreras es el hecho de que las practicas de ciencia abierta inevitablemente suman pasos y requieren un nivel al menos basico de formacion para usar dichos recursos, sin que esto le sume "puntaje" a los investigadores. en la actualidad depende enteramente de la impronta de uno. al ser practicas novedosas los directores de equipos muchas veces las desconocen y las abordan con desconfianza. tambien falta interes en recursos y repositorios autoctonos (ejemplo: de la uba) que facilitaran la visibilizacion de los mismos, pocas personas buscan por su cuenta algo como la osf, por dar un ejemplo.
In the end, let's see all comments to the "Finally, if you have any ideas or comments regarding this survey or the topic it covers, please write them briefly below" item.
l = [text for text in df["comments"].dropna()]
for (i, text) in enumerate(l):
print('Comment %d:\n'%(i+1), text)
Comment 1: El repositorio de CONICET se actualiza MUY lento! Y nuclea producción citable. Seria interesante que conicet tenga un espacio/repositorio para ciencia y datos abiertos. Comment 2: Ninguno, hagan público el resultado, y en lo posible algún curso abierto a los alumnos para interiorizarse en temas de ciencia abierta. Comment 3: Éxitos en la tesina! Comment 4: Me parece que la encuesta plantea una idea de ciencia muy específica con la cual muchxs de lxs investigadores no acordamos. Es parte de la disputa epistemológica. Por tanto algunos procesos que se interrogan parecen darse por obvios en todos los proyectos de investigación y no lo son. Adscribo a epistemologías de la complejidad y a marcos relacionales (no escisionistas) que abordan la investigación científica de modo muy diferente de cómo la concibe el positivismo. En este momento realizo una investigación que podría pensarse (desde ahí respondí) como "ciencia abierta" dado que es un proyecto colaborativo entre investigadores y docentes, pero nada tiene que ver con propuestas de "replicación" en sentido estricto. Por tanto no sé si las respuestas a esta encuesta son válidas para vos ya que las contesté teniendo otras perspectivas de las preguntas que las que usaste para construir el instrumento. Este problema para nosotrxs, por ejemplo, lejos de invalidar el instrumento, es un gran hallazgo de una investigación. Suerte!! Comment 5: Me parece genial que se realice investigación, acerca de la investigación. Aún, hay muchos mitos que esclarecer y trabajos que aportar. Saludos. Comment 6: En una de las secciones existe una escala de 5 opciones de respuesta: "no se", "nada de acuerdo", "un poco de acuerdo", "bastante de acuerdo" y "completamente de acuerdo". En varios de los items sentí que haber podido responder "algo en desacuerdo" hubiera sido más representativo de mis opiniones. Comment 7: Los estudios en áreas donde trabajan muchos investigadores de distintos laboratorios, siempre se replican. Quizas no siguiendo el mismo exacto procedimiento, pero si con algunas variaciones. Si alguien falsea los datos o sesga un resultado (con o sin mala intención), mas tarde o mas temprano van a apsrecer resultados contradictorios. Comment 8: Suerte con la tesis Comment 9: El ítem: "Que un resultado no fuera estadísticamente significativo sería un criterio para no seguir investigando esas variables" fue difícil de responder por contener una doble negación. Lo tuve que pensar bastante. Comment 10: Definiría en algún lado qué entiende quien la elaboró por "ciencia abierta". Por otra parte, las razones por las que no son frecuentes dichas prácticas exceden las 20 expuestas. Comment 11: Es una encuesta demasiado centrada sobre la estadística, cuando incluso la investigación cuantitativa tiene una serie de procedimientos que no se limitan ni quedan registrados en los números y desvíos. El problema de la replicación es también teórico y de organización institucional. La evaluación interpares y el consenso crítico sobre los resultados tienen procesos propios muy poco atendidos. El problema de la replicación no se resuelve con más estadística, sino con otros modos de organizar la investigación y hacer circular la información de procedimientos metodológicos, financiamientos, muestras. En eso es mucho lo que se puede hacer desde la ciencia abierta, pero sería subutilizar ese recurso si lo que se va a compartir son gráficos y tablas. De lo que se trata es de compartir el diseño de las investigaciones, los recursos y la discusión conjunta de los datos obtenidos. Comment 12: El cuestionario es interesante y su diseño es adecuado con relación a las variables que se examinan. Como comentario, señalo dos apreciaciones a tener en cuenta: 1. Agregar en la descripción del consentimiento del estudio, alguna breve definición de ciencia y ciencia abierta para dar claridad a las dimensiones analíticas. 2. Cambiar el término persona, por investigadoras/es. Para quienes se inician en tareas de investigación o poseen becas de categoría "estímulo", el concepto de persona puede ser entendido de manera literal, haciendo perder la confiabilidad de este instrumento. Comment 13: No. Solo decir que me encantó contestarla :) Comment 14: Excelente todo! Excelente tema! Comment 15: Me parece muy interesante y enriquecedor que se investigue sobre este aspecto, felicitaciones. Comment 16: Muchas de las preguntas estan diseñadas mas especificamente para metodologias cuantitativas. Comment 17: No entiendo porque los valores de la variable están signados todos por el negativo. ¿Creen que nadie hace este tipo de práctica? Comment 18: Interesante. Fue muy difícil completarlo desde el celular porque no se visualizaban bien las opciones de respuesta Comment 19: muy interesante Comment 20: no me halle muy representada en los items, es difícil responder cuando se trabaja con metodologías cualitativas Comment 21: Aunque entiendo la lógica hay un problema conceptual en alg nas de las preguntas de replicación. Por ejemplo si tengo redultados "contradictorios" (de por si es un error considerarlos de este modo) otra replica no resolveria nada salvo que el n sea astronómico. Eso se resuelve al nivel del meta-analis, no de replicas, a lo sumo se requeriría de replicas de calidad alta para que este sea posible. Un problema similar se da con la info "no contradictoria" la necesidad de replicas estaría más atada a la calidad y cantidad de la evidencia acumulada. Pd: me encantó el tema! Comment 22: Entiendo que está más dirigida a quienes trabajan con metodología cuantitativa, de hecho no me siento representada en cuanto a las cuestiones problemáticas que pudieran presentarse en mi trabajo